A lo largo del tiempo, las empresas detectaron la necesidad de conservar datos históricos para utilizarlos en la toma de decisiones. Mantener una base de datos con la política del negocio y además incluir esta información histórica puede generar efectos contradictorios como reducción del rendimiento. Con esto en mente, surgen los almacenes de datos (data warehouse).
Un data warehouse es un sistema que agrega y almacena información de una variedad de fuentes diferentes dentro de una organización (orden GB o TB).
Para su concesión se trasladan los datos periódicamente a una base de datos destinada al análisis. Con este esquema se pueden diferenciar dos conceptos fundamentales:
Procesamiento de transacciones en línea (OLTP): Se trata de sistemas para el manejo de transacciones, lo normal en una organización.
Los empleados necesitan consultas e información rápidas y eficientes, actualizadas y precisas, que OLTP está específicamente diseñado para proveer.
Procesamiento analítico en línea (OLAP): Sistema cuyo fin es el análisis de datos para obtener tendencias que puedan servir para la toma de decisiones.
Muchos sistemas OLAP están conectados con soluciones de inteligencia empresarial (Business Intelligence) que facilitan a los gerentes y ejecutivos obtener respuestas a sus preguntas de negocio.
Las herramientas OLAP nos permiten procesar la información de los DW para obtener información de los datos.
OLAP está diseñado para hacer uso de estructuras de datos multidimensionales (o Cubos OLAP), que contienen resúmenes de grandes bases de datos.

OLAP permite al usuario extraer y ver con facilidad y de forma selectiva los datos desde diferentes puntos de vista.
OLAP multidimensionales (MOLAP): esta implementación almacena los datos en una base de datos multidimensional que no es relacional. Tiene acceso a la información en origen.
OLAP relacionales (ROLAP): en este caso los datos se almacenan en la base de datos relacional donde los datos son detallados, evitando las agregaciones y las tablas se encuentran desnormalizadas (Esquema estrella).
OLAP híbridos (HOLAP): MOLAP + ROLAP.
Nos permite conocer el dato histórico. En una base de datos siempre tenemos el último valor de un dato.
La información se organiza en un modelo que favorece la realización de análisis.
Se nutre de diversas fuentes OLTP.
No suelen actualizarse en tiempo real.
No volátil. Los datos no se borran.
Suelen ser temáticos. Cuando la temática es muy específica, se suelen tener data warehouse más pequeños, denominados lagos (Data Lake).
Competitividad.
Productividad.
Posibilidad de mayores ganancias.
Instante de recogida de datos: se pueden distinguir dos tipos de escenarios dependiendo de la arquitectura:
Arquitectura dirigida por orígenes: la base de datos de origen es la que envía la información al Data Warehouse para que sea ingestada.
Arquitectura dirigida por destino: es el Data Warehouse el que solicita a la OLTP la información para recibir nuevos datos.
Selección de la arquitectura o esquema: como un Data Warehouse recibe datos de diferentes OLTP con diferentes modelos, este debe integrar las diferentes variantes para poder almacenar los datos.
Transformación y limpieza de datos: antes de incorporar nuevos datos al Data Warehouse, es necesario realizar una limpieza de datos.
Propagación de actualizaciones: las actualizaciones deben realizarse en el Data Warehouse conforme se actualicen en los orígenes.
Resúmenes de datos: son un tipo de esquema en el cual podemos obtener una serie de datos predefinidos que siempre se mostraran cuando alguien se conecte al Data Warehouse. Es como una especie de Dashboard.
Extracción: Recuperar datos del OLTP.
Transformación: Adaptación de los datos para encajar en la arquitectura del Data Warehouse.
Carga (Load): Introducción de los datos en el Data Warehouse.
![]() |
![]() |
|---|
Se pueden diferenciar dos formas fundamentales de organizar los almacenes de datos:
Buscan guardar datos pre-definidos útiles para el negocio.
Están pre-calculados y se actualizan periódicamente.
Es como un Dashboard
Esquema de estrella: Combina dimensiones normalizadas y otras que no lo están.

Esquema de copo de nieve: Permite que las dimensiones tengan medidas propias.
Es el resultado de normalizar las dimensiones de la arquitectura original.

Teradata.
Oracle.
Azure Synapse Analytics.
Amazon Redshift.